微生物多样性专题 | 扩增子测序分析实战（二）数据库整理之GreenGene | 自由微信

查看原文

其他

微生物多样性专题 | 扩增子测序分析实战（二）数据库整理之GreenGene

2017-08-15 生信控

愿关注我们的人都能找到

属于自己的皮球

文：向屿 | 编辑：湖心

本文系原创转载需授权

微生物多样性专题

扩增子测序分析实战（二）

数据库整理之GreenGene

我们今天故事的主角是GreenGene，在16S物种数据库里面可以说是大名鼎鼎了，即便是多年没有更新，但是使用该数据库进行物种注释依然是很多科研工作者不变的选择，而且16S功能分析工具PICRUSt也是基于该数据库的，可想而知其影响力。

官方主页：

http://greengenes.lbl.gov/cgi-bin/nph-index.cgi

新的官网链接

http://greengenes.secondgenome.com/

倒是简单，只提供数据库下载：

从官网上可以看到，最新的数据库更新停留在了2013年5月，即gg_13_5版本，但是目前可以在QIIME官网上下载到gg_13_8版本，数据下载路径：

ftp://greengenes.microbio.me/greengenes_release/gg_13_5/gg_13_8_otus.tar.gz

解压缩后可见：

1、notes：简要的说明文档；

2、otus：在不同相似度标准下使用 pick_otus.py 聚OTU得到的map文件；

3、rep_set/rep_set_aligned：在不同相似度标准下使用 pick_otus.py 聚OTU得到的OTU代表序列；

4、taxonomy：OTU代表序列对应的物种注释信息；

5、trees：树文件

以99%序列相似度得到的数据库文件中，包含203452条16S序列（99_otus.fasta），序列格式如下：

而其对应的序列注释文件（99_otu_taxonomy.txt）已经对部分属种水平注释进行了一点补充：

注：

1、与之前讲到的数据库物种注释信息的格式略有不同，因为是qiime整理的格式，故可以看到对于不同分类水平，其rank注释是以下划线前面的字母标识的，分别是k、p、c、o、f、g、s，对应界门纲目科属种；

2、GreenGene数据库比较明显的问题就是属种水平注释低，所以很多条目里，g和s下划线后面都是空的；

GreenGene数据库的格式整理比较简单，依据下划线前的rank信息，将rank全称整理成后面带大括号的格式即可，如下：

通过统计可知，属水平无注释信息的序列占50%左右，而种水平达到90%左右：

所以，如果关注属种水平的注释，则不建议使用该数据库。

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！